Passa al contenuto principale

Prevedere le classi con la classificazione

La classificazione è un processo di machine learning che prevede la classe o categoria di un punto dati all'interno di un set di dati. Per fare un esempio semplice, considera come le forme nel grafico seguente possano essere differenziate e classificate come "cerchi" e "triangoli":

alt text

Nella realtà, i problemi di classificazione sono più complessi, come ad esempio classificare i domini dannosi e benigni per rilevare attività di generazione di nomi di dominio (DGA) a fini di sicurezza o prevedere l'abbandono dei clienti in base ai dati delle chiamate dei clienti. La classificazione viene utilizzata per prevedere valori discreti e categorici.

Quando crei un lavoro di classificazione, devi specificare quale campo contiene le classi che desideri prevedere. Questo campo è noto come variabile dipendente e può contenere un massimo di 100 classi. Per impostazione predefinita, tutti gli altri campi supportati sono inclusi nell'analisi e sono noti come variabili di caratteristica. Puoi includere o escludere campi opzionalmente. Per maggiori dettagli sulla selezione dei campi, consulta l'API explain data frame analytics.

Algoritmi di classificazione

L'analisi di classificazione utilizza un algoritmo ensemble simile al boosting del gradiente estremo (XGBoost), che combina più modelli deboli in uno composito. Utilizza alberi decisionali per imparare a prevedere la probabilità che un punto dati appartenga a una certa classe. XGBoost addestra una sequenza di alberi decisionali, e ogni albero decisionale impara dagli errori della foresta fino a quel momento. A ogni iterazione, gli alberi aggiunti alla foresta migliorano la qualità delle decisioni della foresta combinata. L'algoritmo di classificazione si ottimizza per una funzione di perdita chiamata perdita di entropia incrociata (cross-entropy loss).

1. Definire il problema

La classificazione può essere utile in casi in cui è necessario prevedere valori discreti e categorici. Se il tuo caso d'uso richiede la previsione di tali valori, la classificazione potrebbe essere la scelta giusta per te.